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浅 析 基 于 商业 智能 的 新 闻 采 编 业务 流程 数据 分 析 挖 所 


摘 要 : 随 着 大 数据 时 代 的 到 来 ， 越 来 越 多 的 企业 采用 商业 智能 的 相关 技术 ， 从 生产 、 销 售 等 环节 的 数据 中 “淘金 ”， 为 企 
业 决 策 层 提供 辅助 决策 。 本 文 将 商业 智能 关键 技术 应 用 于 新 闻 采 编 业 务 ， 针 对 新 闻 生 产业 务 的 全 流程 ， 通 过 对 全 流程 状态 分 
析 、 新 闻 生 产 力 、 传 播 影响 力 等 主题 的 数据 分 析 挖 据 ， 展 示 新 闻 采 编发 的 流转 过 程 ， 展 示 采 编 部 门 和 人 员 的 生产 效率 ， 展 示 
稿件 的 传播 影响 力 。 文 中 介绍 了 商业 智能 的 工作 原理 ， 对 新 闻 采 编 业 务 流 程 数据 分 析 挖 握 方 法 进行 了 深入 研究 。 
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新 闻 内 容 ， 使 媒体 更 懂 用 户 。 

在 大 数据 时 代 ， 数 据 的 价值 越 来 越 受 到 各 行业 的 重视 。 帮助 在 新 闻 生产 的 每 个 环节 控制 成 本 ,通过 新 闻 生产 力 
企业 内 积累 的 大 量 业务 流程 数据 迫切 需要 人 们 从 中 “淘金 ”。 ”的 分 析 挖 气 ， 展 示 各 采编 部 门 和 人 员 的 生产 效率 ， 为 采编 人 
商业 智能 是 能 满足 企业 这 一 迫切 需求 的 有 力 工具 ， 能 将 海量 。 员 和 部 门 考核 提供 依据 。 运 用 商业 智能 的 方法 ， 可 以 提高 决 
数据 转化 为 知识 ， 有 助 于 从 以 往 数据 中 发 现 业务 趋势 ,为 企 。 策 的 水 平 ， 对 业务 流程 进行 改进 ， 最 终 提高 管理 的 效率 。 


业 决 策 层 提供 辅助 决策 ,Gartner 调 查 显 示 ,2012 年 和 2013 年 ， 及 时 性 是 新 闻 的 基础 ， 通 过 对 互联 网 海量 数据 的 挖掘 可 
BI 已 上 升 到 全 球 CIO 优先 考虑 的 十 大 技术 的 首位 。 以 发 现 潜在 的 新 闻 热 点 。 比 如 : 网 络 媒体 和 新 媒体 中 大 量 用 
当今 传统 媒体 转型 面临 严峻 形势 ， 而 大 数据 将 是 媒体 转 。 户 的 阅读 和 评论 数据 可 以 辅助 采编 人 员 发 现 新 闻 热 点 。 


型 的 有 力 武器 。 在 新 媒体 时 代 ， 用 户 需 要 及 时 、 准 确 、 个 性 ”3. 商业 智能 关键 技术 

化 的 新 闻 服 务 。 数 据 挖掘 可 以 帮助 传统 媒体 充分 发 挥 人 才 资 ”3.1 0LAP 

源 优 势 ， 提 升 品 牌 竞争 力 和 用 户 夭 性 。 在 新 闻 采 编 业务 中 ， 即 联机 分 析 ， 提 供 多 维 数据 管理 环境 ， 使 企业 的 数据 分 
存在 大 量 流程 数据 ， 在 以 往 的 采编 系统 中 这 些 数据 并 未 受到 析 人 员 能 从 多 个 维度 对 商业 问题 进行 建 模 和 分 析 。 

重视 ， 而 借助 商业 智能 的 相关 技术 对 这 些 业务 流程 数据 进行 。 3.2 数据 分 析 


分 析 挖 据 ， 有 助 于 提高 采编 全 流程 业务 管理 信息 化 水 平 ， 掌 使 用 适当 的 统计 分 析 方 法 对 数据 进行 分 析 ， 提 取出 有 价 
握 报道 进展 情况 、 人 员工 作 效率 、 稿 件 落地 情况 和 传播 效果 等 。 ” 值 的 信息 。 
1. 商业 智能 的 定义 3. 3 数据 挖掘 

商业 智能 又 名 商务 智能 ( Business Intelligence，BI) 。 数据 挖掘 就 是 从 大 量 数 据 中 挖掘 出 隐 含 的 、 未 知 的 、 有 


商业 智能 对 数据 进行 收集 、 管 理 ， 提 供 一 系列 技术 和 方法 对 ”价值 的 关联 和 模式 , 建立 可 用 于 决策 的 模型 ,提供 分 析 风 险 、 
企业 的 各 类 数据 进行 分 析 。 商 业 智能 可 以 帮助 企业 的 领导 层 。” 进行 预测 的 功能 。 

从 宏观 上 掌握 企业 的 运转 情况 ， 洞 察 潜在 行业 的 机 会 ,辅助 ” 4. 商业 智能 体系 结构 

他 们 进行 决策 。 首先 将 分 散在 企业 各 系统 中 的 数据 ， 包 括 关系 型 数据 也 
2. 研究 商业 智能 的 意义 包括 非 关 系 型 数据 进行 汇总 ， 通 过 数据 抽取 ( Extract ) 、 转 
商业 智能 帮助 企业 迅速 发 现 问题 ， 提 示 企 业 管 理 者 加 以 换 ( Transform ) 、 清 洗 (Cleaning ) 、 装 载 (Load ) ， 最 终 
解决 。 具 体 到 新 闻 采 编 行业 来 说 ， 商 业 智能 贴近 媒体 管理 者 。 按照 预先 定义 好 的 数据 模型 ， 将 数据 加 载 到 数据 仓库 中 ， 这 
的 迫切 诉求 。 通 过 对 新 闻 传 播 影 响 力 的 分 析 挖 气 ， 使 管理 者 。 一 过 程 简称 ETL。 

可 以 清楚 掌握 新 闻 的 传播 效果 和 影响 力 。 通过 对 企业 数据 需求 的 分 析 ， 建 立 企业 数据 仓库 的 逻辑 
商业 智能 为 新 闻 创造 价值 ， 帮 助 传统 媒体 实现 以 “终端 ” 模型 和 物理 模型 ， 将 企业 各 类 数据 按照 分 析 主 题 进 行 组 织 和 
用 户 为 中 心 ”的 转型 升级 ， 通 过 对 用 户 行为 的 分 析 挖掘 ， 可 ”” 归 类 。 
以 对 用 户 群 体 按照 性 别 、 年 龄 、 职 业 、 地 域 等 因素 进行 分 类 在 数据 仓库 的 基础 上 提供 多 种 软件 工具 供 终端 用 户 查 询 
或 聚 类 ， 把 用 户 进行 群体 细 分 ， 针 对 不 同 用 户 推荐 感 兴趣 的 和 生成 报告 , 包括 OLAP 工具 、 数 据 挖掘 软件 、 报 表 工 具 等 。 
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5. 在 新 闻 业 务 中 的 应 用 
5. 1 数据 源 

数据 仓库 中 数据 的 采集 需要 从 各 种 业务 应 用 系统 和 管理 
信息 系统 中 获取 ， 如 稿件 建 采 系 统 、 编 辑 系统 、 供 稿 系统 、 
OA 系统 等 ， 按 照 统一 的 数据 标准 存放 在 数据 仓库 中 。 

本 文 将 采编 业务 系统 数据 划分 为 静态 信息 数据 、 动 态 信 
息 数据 两 大 类 。 

静态 信息 数据 是 指 相对 稳定 的 信息 ， 主 要 指 采编 部 门 、 
采编 人 员 、 发 稿 线路 等 静态 属性 信息 数据 。 

动态 信息 数据 收集 在 采编 业务 系统 中 不 断 变化 的 流程 数 
据 ， 包 括 采 、 编 、 签 、 改 、 发 、 供 、 馈 等 环节 。 如 何 对 新 闻 
业务 数据 ， 特 别 是 用 户 行为 数据 构建 数据 模型 ， 分 析 稿件 流 
转 过 程 ， 将 是 本 文 着 重 介绍 的 内 容 。 
5. 2 分 析 目 标 

通过 采集 稿件 、 流 程 、 人 员 和 质量 数据 ， 进 行 采编 业务 
全 流程 的 管理 ， 掌 握 报 道 进展 情况 、 人 员工 作 效 率 、 稿 件 落 
地 情况 、 传 播 影响 效果 等 。 从 全 流程 状态 、 传 播 影响 力 、 新 
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事实 表 存 放 的 是 业务 性 能 的 度量 值 。 
个 业务 度量 值 ， 如 : 发 稿 量 。 
维度 表 提 供 观 察 度量 值 即 事实 的 角度 , 如 : 线路 、 时 间 。 
维度 表 的 属性 列 ( 如 : 语种 包含 中 、 英 、 法 、 意 、 日 、 
阿 、 俄 ) 是 用 户 使 用 数据 的 约束 条 件 ， 同 时 也 是 数据 分 析 时 


一 个 事实 代表 一 


的 切割 工具 ， 因 此 维度 表 的 质量 与 深度 直接 影响 整个 数据 仓 
库 的 性 能 。 
对 于 稿件 的 业务 处 理 流程 , 本 文采 用 处理 维度 进行 描述 ， 


属性 列 对 应 采编 业务 流程 中 的 采 稿 、 入 库 、 建 稿 、 建 新 稿 、 
编辑 、 签 发 等 环节 。 
在 数据 仓库 中 可 以 根据 需要 ， 建 立 多 个 应 用 主题 ， 本 文 
建立 了 新 闻 生 产 力 分 析 主 题 、 传 播 影响 力 分 析 主 题 和 全 流程 
状态 分 析 主 题 。 
5. 4 关键 指标 体系 
5.4.1 新 闻 生 产 力 
在 新 闻 生 产 力 评估 中 可 以 采用 生产 率 、 人 均 生 产 稿件 数 
量 、 投 入 人 员 占 比 等 作为 考核 部 门 新 闻 生 产 力 的 指标 ， 指 标 


| 


闻 生 产 力 等 主题 进行 数据 分 析 挖 气 ， 呈 现 新 闻 生 产业 务 运 行 
状况 。 


值 可 根据 时 间 汇 总 到 年 、 季 、 月 、 双 周 、 周 、 日 ， 可 通过 以 
下 维度 查看 稿件 数量 的 详细 情况 : 媒体 类 型 、 新 闻 分 类 、 供 


新 闻 生 产 力 分 析 : 分 析 呈 现 采 编 部 门 、 采 编 人 员 等 在 一 
段 时 间 内 的 工作 效率 。 

传播 影响 力 : 分 析 呈 现 稿 件 的 落地 情况 和 传播 影响 效果 。 

全 流程 状态 分 析 : 分 析 稿 件 在 各 采编 环节 的 流转 情况 。 
5. 3 数据 建 模 

数据 建 模 主 要 用 到 的 是 维度 模型 。 一 个 度量 往往 和 多 个 
维度 相关 ， 维 度 模 型 表达 了 数据 之 间 的 关联 关系 。 比 如 : 想 
要 了 解 2016 年 1 月 份 在 新 媒体 线路 的 中 文稿 件 发 稿 情况 ， 
这 个 发 稿 量 数据 与 线路 、 时 间 、 语 种 三 个 维度 相关 。 维 度 建 
模 是 从 多 个 角度 和 层次 反映 数据 之 间 的 联系 ， 从 多 个 维度 对 
数据 进行 重组 ， 为 决策 提供 数据 的 多 维 视图 。 

维度 模型 有 两 种 不 同性 质 的 表 : 事实 表 和 维度 表 。 

通常 采用 星 型 或 雪花 模型 把 事实 表 和 维度 表 融 合 在 一 
起 ， 中 间 是 事实 表 ， 周 于 是 维度 表 。 


图 1 新 闻 发 稿 情况 雪花 模型 示意 


稿 类 别 、 稿 件 处 理 流 程 。 
表 1 新 闻 生产 力 指标 


指标 指标 说 明 
稿件 数量 部 门 ( 发稿 部 门 、 签 发 部 门 ) 单位 时 间 内 处 理 
的 稿件 数量 
、 部 门 ( 采 稿 、 签 发 部 门 ) 单位 时 间 内 处 理 稿件 
Bie 9 
生产 率 总 消耗 时 间 / 稿件 数量 
记者 人 数量 发 稿 部 门 处 理 稿 件 所 投入 的 人 员 数 量 
编辑 人 数量 编辑 部 门 处 理 稿件 所 投入 的 人 员 数 量 
签发 人 数量 签发 部 门 处 理 稿件 所 投入 的 人 员 数 量 
人 均 生 产 稿件 数量 稿件 数量 /部门 总 人 数 
投入 人 数 占 比 处 理 稿件 投入 人 员 总 数 / 部 门 总 人 数 
5.4.2 传播 影响 力 


在 传播 影响 力 评估 中 ， 在 本 文中 采用 传统 媒体 影响 力 指 
数 、 网 络 媒 体 影 响 力 指 数 、 国 内 媒体 影响 力 指数 、 海 外 媒体 
影响 力 指数 、 海 外 社交 媒体 影响 力 指 数 、 全 网 影响 力 指 数 为 
主要 的 指标 。 其 中 全 网 影响 力 指 数 为 其 余 五 个 指数 的 加 权 计 
算 结果 。 

网 络 媒体 传播 影响 力 指数 如 下 表 ， 指 标 值 可 根据 时 间 汇 
总 到 年 、 季 、 月 、 双 周 、 周 ， 可 查看 指标 在 不 同 媒体 上 的 详 
细 情 况 。 
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表 2 网 络 媒体 传播 影响 力 指标 务 中 ， 关 联 规则 挖 气 可 以 找 出 新 闻 采 编 业务 人 员 个 人 特征 与 
指标 指标 说 明 稿件 之 间 的 关联 性 ; 根据 业务 人 员 的 关注 点 推荐 相关 稿件 ， 
ee ee 一 一 一 一 | ”将 相同 性 质 的 报道 任务 分 配给 适当 的 记者 或 编辑 。 
采用 量 单位 时 间 内 ， 单 一 稿件 在 网 络 媒体 上 的 采用 量 5.52 时 间 序列 分 析 
评论 量 。 | 单位 时 间 内 ， 单 一 稿件 在 网 络 媒体 上 的 评论 量 时 间 序 列 分 析 根据 固定 时 间 间 隔 来 记录 事件 结果 。 新 闻 
评论 同和 单位 时 间 内 ， 单 一 稿件 在 网 络 媒体 上 的 业务 系统 每 天 固定 时 段 处 理 稿件 数 变化 ， 每 月 处 理 稿件 数 ， 

评论 信息 中 正面 评论 占 比 每 季度 总 的 发 稿 量 等 就 是 时 间 序 列 的 案例 。 
评论 异 向 se ee 分 析 时 间 序 列 数据 ， 可 以 借助 一 些 可 视 化 的 手段 ， 如 ， 
评论 信息 中 负面 评论 占 比 柱状 图 、 折 线 图 ， 从 而 观察 出 某 些 现象 特征 及 行为 ， 通 常 时 
时 光度 单位 时 间 内 ， 单 一 稿 和 间 序 列 有 四 种 主要 的 变化 : 
NN 长 期 或 趋势 变化 。 用 于 反映 长 期 变化 的 总 休 方 向， 体现 
转载 ( 转 引 ) 单位 时 间 内 ， 单 一 稿件 在 网 络 媒体 上 的 转载 量 为 趋势 线 。 
循环 运动 。 体 现 为 沿 着 趋势 线 或 者 趋势 曲线 长 时 间 的 摆 
转载 ( 转 引 ) 深度 | 单位 时 间 内 ， 单 一 稿件 在 网 络 媒体 上 的 转载 深度 。 才 ，” 包 括 周 期 性 和 非 周期 性 的 拉动 。 


季节 性 移动 或 季节 性 变化 ,反映 每 年 都 重复 出 现 的 事件 ， 


5.4.3 全 流程 状态 分 析 体现 为 在 连续 几 年 的 同期 重复 出 现 相同 或 相似 的 模式 。 
全 流程 状态 分 析 可 实时 监测 各 指标 的 变化 情况 ， 可 通过 非 规律 或 随机 变化 。 由 于 偶然 或 随机 事件 引起 的 变化 。 
以 下 维度 查看 指标 的 详细 情况 : 稿件 处 理 ( 采 稿 .人 库 、 建 稿 、 数据 挖掘 技术 应 用 于 新 闻 业 务 流 程 管理 对 数据 的 归纳 、 
建新 稿 、 编 辑 、 签 发 等 ) 、 稿 件 媒体 类 型 、 稿 件 供稿 类 别 。 分 析 和 处 理 精 细 化 有 重要 帮助 。 通 过 获取 与 分 析 用 户 行为 模 
表 3 ”稿件 组 全 流程 状态 分 析 指标 式 , 分 析 以 往 采 编 流程 数据 , 全 面 掌握 采编 业务 的 运作 状态 ， 
指标 指标 说 明 了 解 采 编 人 员 的 特点 ， 实 现 服 务 个 性 化 、 智 能 化 。 
6. 结束 语 


No 前 一 稿件 处 理 节 点 至 完成 当前 处 理 节 点 所 完成 ee 
2 在 传统 媒体 战略 转型 的 迫切 形势 下 ， 需 要 依靠 技术 创新 


的 稿件 数量 
提升 核心 竞争 力 和 传播 影响 力 。 大 数据 是 内 容 、 渠 道 、 服 务 


一 稿件 处 理 节点 至 完成 当前 处 理 节 点 所 完 
综合 处 理 耗 时 | 入 伯 处 理 节 友 完成 当前 处 理 节 点 所 完成 | 和 核心 支点 ， 是 传统 媒体 转型 的 有 力 推手 。 本 文 探讨 了 在 商 
的 稿件 组 所 消耗 的 时 间 


业 智 能 的 通用 框架 下 ， 数 据 分 析 挖掘 技术 在 新 闻 采 编 业 务 流 


稿件 组 从 发 入 四 点 至 现在 所 消耗 的 时 间 娄 计 。 | 。 程 数据 上 的 应 用 。 通 过 对 新 闻 生产 力 、 传 播 影响 力 、 全 流程 
即 : 综合 处 理 耗 时 的 累加 


综合 累计 耗 时 


状态 的 分 析 挖 气 ， 使 用 先进 的 方法 和 工具 ， 梳 理 采编 业务 流 
平均 综合 处 理 耗 时 综合 处 理 耗 时 /稿件 数 程 , 识别 行为 数据 产生 点 和 管理 控制 点 并 进行 指标 体系 设计 ， 
平均 综合 累计 耗 时 综合 累计 耗 时 /稿件 数 帮助 决策 者 把 握 业 务 发 展 方向 。 随 着 大 数据 时 代 的 发 展 ， 商 


业 智 能 相关 技术 的 应 用 将 助力 媒体 融合 ， 为 传统 媒体 战略 转 
型 提供 有 力 支 持 。 


阶 


个 业务 环节 ( 采 、 编 、 发 、 供 、 馈 ) 设 定 标 
阶段 综合 百分比 | 准 工 作 时 间 定额 。 稿 件 i 节 内 完成 
时 间 百 分 比 


全 流程 综合 百分比 | ”稿件 组 在 整个 业务 流程 的 完成 时 间 百 分 比 
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5.5.1 关联 规则 和 序列 模式 

关联 规则 用 于 分 析 用 户 数据 ， 发 现 用 户 行为 模式 。 关 联 (作者 单位 : 新 华 社 技术 局 ) 
规则 描述 数据 项 之 间 存 在 的 关联 关系 ， 即 根据 一 个 事务 中 某 
些 项 的 出 现 推导 出 另 一 些 项 在 同一 事务 中 也 出 现 。Apriori 算 
法 是 关联 规则 的 经 典 算法 。 关 联 规 则 最 初 针 对 购物 篮 分 析 问 
题 提 出 ， 即 分 析 消 费 者 经 党 同时 购买 哪 几 种 商品 。 在 新 闻 业 


